import requests;
from lxml import etree;

#定义一个简单的html结构
html='''
<html>
	<div>
		<ul>
			<li class="item-0">
				<a href="link1.html">first item</a>
			</li>
			<li class="item-1">
				<a href="link2.html">second item</a>
			</li>	
			<li class="item-inactive">
				<a href="link3.html">third item</a>
			</li>	
			<li class="item-1">
				<a href="link4.html">fourth item</a>
			</li>			
			<li class="item-0">
				<a href="link5.html">fifth item</a>
			</li>
			<li class="else-1">something else</li>		
			this is ul item
		</ul>				
	</div>
</html>
''';

selector=etree.HTML(html);#初始化etree

#查找所有的li		双斜杠//代表从根结点开始查找	
all_li=selector.xpath('//div/ul/li');#也可以直接写'//ul/li'因为本例中ul是唯一的

#查找第一个li	注意序号是从1开始
li_1=selector.xpath('//div/ul/li[1]');

#使用text()提取文本信息
a1_text=selector.xpath('//ul/li[1]/a/text()');#返回的是一个list
print(a1_text);
print(a1_text[0]);
